Évaluation des LLM : les arbitrages de Salesforce | Silicon

Clément Bohic - Silicon - 04/07
Salesforce a entrepris un benchmark des LLM sur des cas d'usage CRM. Comment l'a-t-il orchestré et qu'en ressort-il ?

Quelle taille de prompt ? Quel juge pour les évaluations automatisées ? Quelles conditions d’exécution pour les modèles non disponibles sur une API publique ? Autant de questions que Salesforce a dû aborder pour constituer son benchmark de LLM.

Ce benchmark a la particularité de cibler des cas d’usage propres aux CRM. Dans deux domaines en l’occurrence : ventes et service. Ils couvrent la synthèse et la génération de contenus textuels.

Pour le moment, Salesforce n’a évalué que des modèles génériques entraînés pour le suivi d’instructions. Ils émanent de huit fournisseurs :

– AI21 (Jamba-Instruct) – Anthropic (Claude 3 Haiku, Claude 3 Opus) – Cohere (Command R+, Command Text) – Google (Gemini Pro 1.0, Gemini Pro 1.5) – Meta (Llama 3 8B, Llama 3 70B) – Mistral AI (Mistral 7B, Mixtral 8x7B) – OpenAI (GPT-4o, GPT-4 Turbo, GPT-3.5 Turbo) – Salesforce (XGen 2)

À benchma...
[Courte citation de 8% de l'article original]

Loading...